Introduction à la vision par ordinateur et au traitement d'images numériques

Vision par ordinateur est le domaine de l'intelligence artificielle qui permet aux ordinateurs d'extraire des informations significatives à partir d'images et de vidéos numériques, en tentant efficacement de combler le écart sémantique entre les données brutes de pixels et la compréhension au niveau humain.Traitement d'images numériques constitue la couche fondamentale de la vision par ordinateur, en se concentrant sur la manipulation et l'amélioration des signaux d'image par des transformations pixel par pixel afin de préparer les données pour des tâches d'interprétation de haut niveau.

Principes fondamentaux

Représentation des données : Au niveau machine, une image est un tenseur numérique plutôt qu'une image globale. Les images en niveaux de gris sont des matrices 2D de valeurs d'intensité, tandis que les images couleur sont des tenseurs 3D représentant les canaux Rouge, Vert et Bleu (RVB) ayant des dimensions $H \times W \times 3$.
Transformation vs. Interprétation : Le traitement d'images numériques concerne principalement des opérations image à image telles que la réduction du bruit, le floutage ou l'égalisation d'histogramme. La vision par ordinateur se concentre sur des opérations image à connaissance telles que la classification d'objets, la localisation ou la segmentation.
Le paradigme inverse de la graphique : La vision par ordinateur peut être vue comme l'inverse de la graphique informatique. Alors que la graphique vise à générer un monde visuel à partir de modèles mathématiques, la vision vise à retrouver des structures 3D et des étiquettes sémantiques à partir de projections 2D.

Le défi fondamental

Le défi principal de ce domaine est l’écart sémantique, qui représente la rupture entre les valeurs de pixels de bas niveau traitées par les machines et les concepts de haut niveau perçus par les êtres humains.

Implémentation en Python

Question 1

Quel processus est catégorisé comme une opération image-à-connaissance ?

Traitement d'images numériques

Vision par ordinateur

Graphisme informatique

Égalisation d'histogramme

Question 2

Au niveau machine, quelle est la structure des données d'une image couleur standard ?

Matrice 2D

Tableau 1D

Tenseur 3D / Canaux RVB

Liste chaînée

Étude de cas : Système médical de diagnostic automatique

Lisez le scénario ci-dessous et répondez aux questions.

Un hôpital développe un nouveau système automatisé de diagnostic médical destiné à analyser les scanners RX pour détecter d'éventuelles fractures osseuses. Le système traite les données brutes provenant de la machine RX et produit un rapport de diagnostic pour le radiologue.

1. Si le système applique une amélioration du contraste pour rendre les structures osseuses plus claires, s'agit-il de traitement d'images numériques (DIP) ou de vision par ordinateur (CV) ?

Réponse :
Traitement d'images numériques. L'amélioration du contraste est une transformation image à image qui améliore la qualité visuelle du signal sans extraire de signification sémantique.

2. Si le système marque automatiquement une zone spécifique comme étant une fracture potentielle, quelle tâche effectue-t-il ?

Réponse :
Vision par ordinateur / Détection d'objets. Le système interprète le contenu de l'image pour extraire des connaissances de haut niveau (localisation d'une fracture).

3. Pourquoi la réduction du bruit est-elle nécessaire avant d'exécuter un algorithme de détection ?

Réponse :
Pour améliorer la qualité du signal et réduire les faux positifs lors de la phase d'interprétation sémantique. Le bruit peut être mal interprété par les algorithmes de vision par ordinateur comme des caractéristiques ou des contours réels.